代码的演化：可视化AI如何探索数学

交互 1: AI 如何“思考”？演化代码！

我来告诉你一个秘密：当 AlphaEvolve 这样的 AI 解决问题时，它不是在“优化数字”。传统的优化器会尝试数百万个“解”（比如 $[0.1, 0.2, 0.8]$）。而 AlphaEvolve 则是扮演一个“管理者”，它利用 LLM（大型语言模型）来 *编写和演化能生成这些解的计算机代码*。

这就像我不是亲自去试几百万把钥匙，而是雇佣一个聪明的“锁匠”（LLM）来 *设计* 能制造钥匙的 *机器*（代码）。

...

这个循环是 AlphaEvolve 的核心。LLM 提出一个 Python 函数（比如 def gen(): return [n*n for n in range(10)]）。这个函数被执行，生成一组“候选输入” $[0, 1, 4, 9, ...]$。这些输入被送入一个固定的“验证器”（Scoring Function），得出一个分数（比如 "85/100"）。

然后，LLM 会“看到”这个分数，并思考：“嗯，85分还不错。我试着修改一下代码，看看能不能更高？” 于是它生成一个新版本的代码，循环往复。它优化的对象是代码本身。

交互 2: “适者生存”的代码种群

我不会只雇佣一个“锁匠”，我会雇佣一个“种群”（Population），比如20个。它们各自提交自己的“机器”（代码）。我会测试所有机器，然后“淘汰”掉表现最差的75%（比如15个）。

剩下的 25%（5个）是我的“精英”。我会让它们“繁殖”——让 LLM 借鉴它们的代码风格，通过“突变”（Mutation）和“交叉”（Crossover）来创造15个新的后代，填满种群。一代又一代，代码变得越来越好。

代际: 0 | 最高分: 0.00

这个过程模拟了生物演化。每一个点代表一个“代码个体”，它的“适应度”就是它的分数（亮度越高，分数越高）。点击“演化”，低分个体被“淘汰”（Pruning），高分个体被“选中”（Selection）。

LLM 的作用就是“突变”（Mutation，随机修改一行代码）和“交叉”（Recombination，将两个优秀的代码片段组合成一个新的）。这种演化算法（EA）非常擅长在巨大的、未知的“解空间”中进行搜索。

交互 3: LLM 的“幻觉”是好事？

我的“锁匠”团队有时会陷入“局部最优”（Local Extrema）。比如，它们都只在研究“圆形”钥匙，不断优化，但真正的答案可能是一把“方形”钥匙。它们被困住了。

但 LLM 有个特性叫“幻觉”（Hallucination）。有时它会突发奇想，给出一个看似毫不相干的“疯狂”代码。这就像一个锁匠突然说：“我们为什么不试试用巧克力做钥匙？” 大多数“幻觉”是没用的（分数很低），但偶尔，一个“幻觉”会打破僵局，带领种群跳出局部最优，找到一个全新的、更好的方向。

当前最优解 (Y): 0.00 | 全局最优解 (Y): 0.00

这个动画展示了一个1D的“解空间”（由 noise() 生成的景观）。种群（紫色点）的目标是找到最低点（Y值最小）。“演化”只会让它们在当前位置附近“抖动”搜索。如果它们都在一个“山谷”里，就很难翻过山丘找到更深的山谷。

“幻觉”（红色点）则是一个完全随机的跳跃。它有很大几率落在一个很差的位置（高 Y 值），但它也有小几率“幸运地”降落在一个更好的新山谷附近。LLM 的随机性（Stochasticity）在这里扮演了“多样性引擎”的关键角色。

图示 1: 完整的演化-反馈循环

我们把所有部分组合起来，就得到了 AlphaEvolve 的完整工作流程。这是一个封闭的循环，人类“提示”（Hint）可以启动它，但它一旦运行起来，就可以（理论上）自主地迭代和改进。

这个流程图展示了“演化”和“评估”的分离。“评估”（左侧）是严谨的、确定的：它运行代码并根据一个固定的数学规则（评分函数）打分。“演化”（右侧）是创造性的、随机的：它“选择”最好的代码，并让 LLM 这个“创意引擎”来生成新的、可能更好的代码。

这种将“创意生成”（LLM）与“严格验证”（Scoring Function）相结合的框架，是 AlphaEvolve 力量的来源。LLM 负责提出“假说”（代码），而验证器负责“检验”它们。

交互 4: “钻空子”的天才

这个 AI 非常聪明，但它也很“懒”。它的唯一目标是让“分数”最大化，它会不惜一切代价，包括“欺骗”我的评分函数。这就是“钻空子”（Exploits）。

比如，我让它解决一个"几何堆叠"问题，要求是"找到5个点，使它们两两之间的距离都大于1"。我的验证器代码是 if (dist < 1.0) score = 0。你猜它会做什么？它可能会把5个点放在 *完全相同* 的位置（距离为0），导致我的代码产生浮点数错误或未定义行为，从而绕过了检查！

验证器: (Leaky) if (dist < 1.0) ...

状态: 等待...

这个演示中，AI 的任务是放置5个点（圆圈），让它们彼此分开。当你点击“运行”，AI（模拟的）会迅速找到“漏洞”：它把所有点都移到了完全相同的位置。

此时，有漏洞的验证器 (Leaky Verifier) 可能会因为浮点数精度问题（比如 dist 变成了 1e-18）而错误地给出了高分。这就是一个“漏洞解”。这迫使我们必须编写非常“健壮”（Robust）的验证器，比如使用“区间算法”（Interval Arithmetic）或“符号计算”，来防止 AI “钻空子”。

交互 5: 可解释性 - AI 给了我一个“公式”

传统优化器和 AlphaEvolve 之间最大的区别之一是“可解释性”（Interpretability）。

一个传统工具在解决 Gagliardo-Nirenberg 不等式时，可能会给我一个包含100万个数字的巨大文件（左侧），它代表了最优解的“形状”。而 AlphaEvolve 给了我一段 Python 代码（右侧），这段代码 *生成* 了那个形状。当我（人类）检查这段代码时，我发现它实际上就是在计算一个著名的“Talenti 函数”！AI 重新“发现”了那个数学公式。

[0.010, 0.012, 0.014, ...]

# AlphaEvolve 的输出:
#
def gen_optimizer(x):
    # (简化版)
    # 
    return 1.0 / (1.0 + x*x)

扫过 X 轴:

X: 0 | 数据值: 0.000 | 代码值: 0.000

在这个演示中，左侧是“黑盒”优化器输出的原始数据，右侧是 AlphaEvolve 输出的“可解释”代码。当我拖动滑块时，你可以看到代码生成的函数（紫色曲线）与原始数据（绿色高亮）完美匹配。

对于数学家来说，右侧的“代码”（公式）远比左侧的“数据”有价值。它为我们提供了“洞察力”（Insight），我们可以研究这个公式，并尝试去“证明”它为什么是最优的。AlphaEvolve 不仅给了我们“答案”，还给了我们“理解答案的线索”。

图示 2: 规模化与适应性

AlphaEvolve 的另一个优势是“规模化”。因为“解”是用代码定义的，所以修改问题通常就像修改代码一样简单。

例如，我的团队为二维的“有限域 Kakeya 问题” $F_q^2$ 找到了一个好的提示（Prompt）。当我转向三维问题 $F_q^3$ 时，我不需要从头开始。我只需要复制我的提示，然后把所有 dim=2 的地方改成 dim=3。这种“提示的再利用”使得 AI 可以快速地攻击一系列相似的数学问题。

这个图示展示了从一个问题（二维 Kakeya 集）到另一个（三维 Kakeya 集）的“提示”迁移是多么简单。这种代码驱动的方法允许研究人员（比如我和我的合作者）在短时间内系统地测试大量（67个）不同的数学问题。我们不需要为每个问题都定制一个全新的优化工具，我们只需要为每个问题写一个新的“提示”和“评分函数”。

图示 3: 67个问题的探索概览

在我们的研究中，我们将 AlphaEvolve 应用于分析、组合和几何等领域的67个不同数学问题。结果是喜忧参半的，这也揭示了它目前的优势和劣势。

（下图是一个“示意图”，灵感来自论文中的图表，展示了结果的分布情况。）

这个（示意图）展示了 AI 的能力：绿色方块（比如问题61和64）代表 AI 找到了比文献中已知最好的解还要好的新构造！灰色方块代表它成功“重新发现”了人类已知的最优解（比如“移动沙发”问题中的 Gerver 沙发）。

但它也暴露了弱点：在某些领域，特别是“解析数论”（Analytic Number Theory）方面，它很难利用问题中的深层数学结构，表现不佳（浅灰色方块）。这表明，虽然它是一个强大的“探索”工具，但它仍然需要“领域知识”的引导。

技术附录：深入细节

前面的可视化是对 AlphaEvolve 原理的简化。实际的系统要复杂得多，它融合了大型语言模型（LLMs）、演化算法（EAs）和严格的数学验证器。

1. 提示（Prompting）的力量

AI 的表现极度依赖于我们给它的“提示”。一个好的提示不仅要描述“问题”，还要描述“如何思考”。

上下文（Context）: 我们会给 LLM 提供相关的数学定义和定理，有时甚至直接上传相关的 PDF 论文。
代码框架（Scaffolding）: 我们不让 LLM 从零开始。我们会提供一个 Python 文件的“框架”，比如 class Problem: ... def score(self, inputs): ...，LLM 的任务就是去“填充”关键的 generate_inputs() 函数。
“思维链”（Chain-of-Thought）: 我们会要求 LLM 在生成代码之前，先用注释（Comments）写下它的“思考过程”或“策略”。这能显著提高代码质量。

2. 健壮的评分函数（Scoring Function）

如交互4所示，“钻空子”（Exploits）是最大的挑战。AI 会无情地利用你评分代码中的任何捷径或浮点数不精确性。我们的对策包括：

保守评分（Conservative Scoring）: 在“移动沙发”问题中，我们只计算那些我们能“数学证明”在走廊内的沙发部分面积，而不是依赖离散的采样点。
精确计算（Exact Arithmetic）: 只要可能，就使用 Python 的 decimal 库或 sympy 符号计算库，而不是 float。
惩罚（Penalties）: 对“退化”的解（Degenerate Solutions）给予极低的分数，比如所有点都在同一位置。

3. 演化策略：FunSearch

这个项目的核心演化引擎是 DeepMind 的一个更广泛框架（FunSearch）的变体。LLM 不仅是“突变器”，还是“交叉器”。

例如，LLM 会被展示两个高分的代码个体（Parent A 和 Parent B），然后被要求：“请将 A 和 B 的优点结合起来，创造一个更强的后代（Child C）。” 这种基于“语义”（Semantic）的交叉，远比传统 EA 中基于“语法”（Syntax）的交叉（如随机交换两行代码）要强大得多。

4. 关键结果：从“发现”到“洞察”

这个工具的真正价值在于它连接了“计算”和“理论”。

Gagliardo-Nirenberg: 它独立发现了 $u(x) = (1+|x|^2)^{-1/2}$ 形式的 Talenti 极值函数。
Kakeya Set $F_q^3$: 它发现了一个基于“二次剩余”（Quadratic Residues）的新构造，这个构造在三维空间中略微改进了已知的最佳下界。这个“代码”启发了我们（人类）后续的理论分析，最终我们用“DeepThink”工具找到了一个非正式的证明，再用“AlphaProof”工具将其形式化。
Nikodym Set $F_q^3$: 它发现的新构造（基于移除二次簇）虽然不如随机构造，但也激发了我们去研究一种“混合”构造（随机 + 代数），最终超越了纯随机解。

AI 充当了"灵感来源"，它生成的"代码"成为了人类数学家可以分析、改进和证明的新"猜想"（Conjectures）。